Auteur : Étienne Brunet http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=1566 Index des publications de Auteur Étienne Brunet fr 0 Deep learning et authentification des textes http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=4194 Les problèmes de paternité ou de datation peuvent être abordés avec les moyens habituels de l’histoire littéraire, mais aussi en recourant aux ressources de la statistique et de l’informatique. Diverses mesures intertextuelles ont été proposées pour tenter de distinguer les distances intra (entre les textes d’un même auteur) et les distances inter (entre les auteurs). Malheureusement aucune jusqu’ici n’a pu prétendre au rang de juge suprême, comparable à l’ADN dans les recherches de paternité ou de criminalité. L’Intelligence artificielle peut-elle jouer ce rôle? C’est l’objet de la présente étude, menée conjointement dans deux corpus. Dans le premier, on aborde le roman au XXème siècle en proposant à l’algorithme du Deep Learning un panel de 50 textes et de 25 écrivains (parmi lesquels Roman Gary et Émile Ajar). Il s’agit de reconnaître les textes qui ont le même auteur. Là où les méthodes classiques se trompent une fois sur trois, le Deep Learning réussit l’épreuve sans faillir. Fort de cette réussite, le même algorithme est appliqué au théâtre classique. La conclusion est catégorique : Racine, Corneille et Molière se distinguent parfaitement sauf dans deux cas (Don Garcie et Les Plaideurs) où le genre vient brouiller la signature. Le présent article s’interroge sur les mécanismes mis en œuvre dans le Deep Learning. Un développement plus étendu est prévu dans une publication ultérieure.While problems of attributing authorship or dating a text can be tackled using the usual methods of literary historians, it is equally possible to turn to statistical and computing tools. A range of intertextual measures have been proposed to describe variation within and across authors. To date no single method can claim an uncontested superiority comparable to the use of DNA in paternity suits or criminal investigations. The present study asks whether artificial intelligence may be able to play this role, and seeks the answer in research involving two corpora. The first concerns 20th century French literature: a deep learning algorithm is used on 50 texts by 25 authors (e.g., Roman Gary, Émile Ajar) with the goal of matching the two texts by the same author. Where traditional methods yield correct results only twice for every three attempts, deep learning is perfectly accurate. The second corpus is drawn from French classical drama and here the algorithm also categorically distinguishes and matches plays by Racine, Corneille, and Molière. The only errors concern two plays (the French texts of Molière’s Don Garcia of Navarre and Racine’s The Litigants) where the comic genre takes precedence over authorial voice. This paper investigates the mechanisms of deep learning (with a more detailed treatment planned for a subsequent publication). Sat, 16 Feb 2019 09:16:17 +0000 Sat, 23 Mar 2019 19:34:59 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=4194 Un texte sacré peut-il changer ? http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3761 Un corpus est constitué de trois traductions françaises (TOB, Maredsous, Chouraqui) pour chacun des quatre évangiles (Matthieu, Marc, Luc, Jean). Il permet d'observer l'influence respective de l'auteur et du traducteur sur la singularité de la formulation d'un texte. Pour ce corpus, c'est l'auteur (l'évangéliste Jean) qui caractérise en premier lieu les ressemblances entre textes : le calcul statistique semble ainsi confirmer le contraste établi par la critique traditionnelle, qui sépare l'évangile de Jean des trois autres évangiles dits synoptiques. Au plan de l'usage des pronoms personnels par exemple, l'évangile de Jean se caractérise par l'emploi de la première personne, celui de Matthieu par la deuxième personne et celui de Marc par la troisième, l'évangile de Luc se positionnant de façon intermédiaire entre Matthieu et Marc. L'évangile de Jean se caractérise aussi par un sur-emploi de la catégorie grammaticale du verbe, par rapport aux synoptiques qui font davantage usage du nom. Mais dans un second temps, une fois l'auteur Jean distingué des synoptiques, c'est un traducteur (Chouraqui) dont le style domine globalement les différences entre les textes des trois auteurs restants, en se distinguant notamment par un usage plus fréquent du pluriel. Thu, 04 Feb 2016 12:21:53 +0000 Thu, 28 Apr 2016 07:31:21 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3761 Les catégories grammaticales chez Hugo http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3760 Globalement, par rapport à d'autres écrivains, et au vu des décomptes sur corpus, Hugo marque dans son style une préférence pour le substantif et le verbe. Au sein même de son œuvre, l'usage des catégories grammaticales est surtout influencé par le genre textuel (poésie, roman, théâtre, correspondance -le récit de voyage du "Rhin" occupant une place singulière) et beaucoup plus faiblement par la chronologie des œuvres. L'adjectif n'est pas sur-employé en tant que catégorie grammaticale, mais ce sont certains choix lexicaux (concernant certains adjectifs) qui sont marqués chez Hugo. Et si l'on détaille les adjectifs et participes en sept classes selon leur terminaison, l'étude statistique fait ressortir deux pôles, dont la stabilité sur d'autres corpus semble remarquable. Thu, 04 Feb 2016 12:03:03 +0000 Mon, 02 May 2016 16:43:28 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3760 La phrase de Zola http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3759 La phrase de Zola a une longueur moyenne par rapport à la littérature française des XIXe et XXe siècles, mais elle est plus segmentée (plus de virgules). À l'intérieur même de son œuvre des Rougon-Macquart, Zola évolue dans son usage de la ponctuation, et l'on mesure d'une part un double mouvement de raccourcissement puis d'allongement de la phrase, d'autre part l'abandon du point-virgule au profit de la virgule et celui du point au profit des ponctuations affectives, surtout exclamation. La diminution d'emploi des guillemets correspond à l'abandon de la technique des propos enchâssés dans le discours, au profit de la transcription directe où la parole est donnée au personnage. Ces évolutions chronologiques sont cependant à nuancer en fonction des différents types de textes que l'on peut distinguer à l'intérieur des Rougon-Macquart. Par ailleurs, l'étude du rythme de la phrase zolienne suppose de passer des effectifs globaux (texte par texte) aux variations quantitatives au fil du texte. Les mesures statistiques n'atteignent pas toujours le seuil de significativité mais révèlent une tendance au raccourcissement de la phrase entre le début et la fin du texte. Une autre mesure (d'autocorrélation) permet de vérifier que les phrases courtes s'attirent entre elles et s'agglutinent ainsi en certains passages, de même pour les phrases longues, ce qui donne à la succession des phrases l'apparence d'une houle, d'un rythme large, mais dont la périodicité est variable et complexe, relevant aussi d'autres dimensions liées (lexicale, syntaxique, textuelle). Thu, 04 Feb 2016 11:44:18 +0000 Thu, 28 Apr 2016 07:29:09 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3759 La ponctuation et le rythme du discours http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3758 La ponctuation est un observable pertinent pour une approche lexicométrique des textes : les signes sont relativement clairement identifiables, ils forment un paradigme réduit ; ils modulent le rythme des phrases, et peuvent jouer un rôle important au plan stylistique. L'enquête est menée sur le corpus du Trésor de la langue française, sur lequel les observations diachroniques (évolution de 1800 à 1960) peuvent être affinées selon les types de textes (7 sous-ensembles, notamment selon la personne grammaticale dominante). Chaque signe -ainsi que quelques marques typographiques comme l'italique ou la majuscule- est tour à tour méthodiquement examiné, en précisant concrètement les limites de son relevé automatique, et les caractéristiques auxquelles porter attention pour l'interprétation quantitative et qualitative de ses usages, selon les types de texte et les époques. Wed, 03 Feb 2016 10:50:48 +0000 Wed, 03 Feb 2016 10:54:06 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3758 Quand le temps change avec le temps http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3756 Sur le corpus littéraire Frantext et à l'aide du logiciel de lexicométrie Hyperbase, la notion de "temps" peut être comprise et observée sous des angles multiples et complémentaires. L'évolution diachronique de la langue montre d'abord un phénomène global d'inflation lexicale, le vocabulaire français s'enrichissant quantitativement au fil du temps, grâce notamment au mécanisme de suffixation qui peut être analysé plus finement (profil temporel varié des différents suffixes). Mais on peut aussi s'intéresser aux temps verbaux dans les romans, et le mouvement de simplification observé s'interprète en lien avec d'autres indices de simplification conjointe de la syntaxe verbale et de l'articulation des propositions. Enfin sous un troisième angle, l'analyse porte sur le lexique des divisions du temps, et une cartographie d'ensemble peut être dressée caractérisant les écrivains par rapport à leur préférence pour l'expression dans leurs textes de rythmes courts (minute, seconde), moyens (moment, jour, âge) ou larges (éternité, époques, générations), ces trois types de rythme se décantant d'eux-mêmes par le calcul sur corpus. Des contrastes analogues séparent les genres textuels et révèlent leurs affinités lexicales et thématiques par rapport à ce vocabulaire du temps, comme le montre une étude focalisée sur l'œuvre de Gracq. Wed, 03 Feb 2016 08:51:46 +0000 Wed, 03 Feb 2016 08:57:37 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3756 Le latin dans la littérature française http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3749 Une enquête sur la présence et l'emploi du latin en français écrit est menée sur le corpus Frantext, rassemblant des textes choisis de littérature française de 1500 à 1980, et à l'aide du logiciel de lexicométrie Hyperbase. La recherche se fait d'abord sémasiologique, sur le mot "latin" lui-même ou la famille de ses dérivés morphologiques ; puis onomasiologique, en se basant sur des listes de mots ou de citations passées dans la langue (établies à partir de dictionnaires français) ; mais aussi en étendant l'enquête au vocabulaire latin. Le logiciel permet alors d'observer précisément la répartition des ocurrences de l'objet d'étude au fil du temps, ou selon les genres textuels (en distinguant notamment les essais), ou selon les auteurs ; il peut aussi constituer des relevés de cooccurents (mots attirés au voisinage) éclairants sur les contextes d'emplois. Les résultats sont contrastés selon les différents objets d'étude. Ils montrent cependant que l'évolution du latin ne suit pas une courbe descendante mais serait plutôt cyclique. Thu, 28 Jan 2016 14:55:25 +0000 Wed, 03 Feb 2016 08:59:40 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3749 Apport des technologies modernes à l'histoire littéraire http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3742 L'approche statistique ouvre de nouvelles perspectives pour la recherche en littérature : pour la caractérisation d'une œuvre ou d'un auteur, comme pour les analyses thématiques (autour d'un mot ou d'un champ sémantique) ; mais aussi pour une étude plus large des mouvements ou des genres littéraires, voire de l'histoire littéraire et de l'évolution de la langue sur plusieurs siècles. L'exposé est illustré par de nombreux exemples tirés de la pratique de l'auteur. Wed, 27 Jan 2016 17:23:45 +0000 Tue, 02 Feb 2016 20:07:48 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3742 What Do Statistics Tell Us ? http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3279 Dans cette étude méthodologique, l’auteur plaide pour un usage maîtrisé et raisonné des statistiques dans les études linguistiques : en utilisant de nombreux exemples illustrés, il met en garde contre les illusions récurrentes et les conceptions superficielles de la scientificité. Il présente enfin les principales fonctionnalités du logiciel Hyperbase. Fri, 02 Aug 2013 20:22:55 +0000 Fri, 02 Aug 2013 20:43:30 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=3279 Les bases de données en texte intégral. Réalisation et diffusion http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=2824 Étienne Brunet dresse un panorama des bases de données linguistiques existantes, de Frantext au CD-ROM Rabelais et aux bases en ligne, et à l’intérêt d’Internet dans la diffusion de ces données. En poursuivant d’abord la piste du mot Corse, l’auteur parcourt les fonctions statistiques et les contrastes mobilisables d’un support à l’autre. Fri, 17 Jun 2011 22:04:08 +0000 Fri, 17 Jun 2011 22:04:54 +0000 http://www.revue-texto.net/index.php/http:/www.revue-texto.net/1996-2007/Archives/Parutions/Archives/Parutions/Marges/docannexe/file/4227/docannexe/file/2348/docannexe/file/4461/docannexe/file/4670/index.php?id=2824